메뉴

#음성 합성

MP
MarkTechPost 11일 전
IMP 8

알리바바 통번역 AI, 60개 언어 2.8초 지연

알리바바 클라우드의 Qwen 팀이 실시간 다국어 통번역 모델인 Qwen3.5-LiveTranslate-Flash를 공개했습니다. 이 모델은 60개 언어의 입력을 2.8초의 지연 시간으로 처리하며, 시각 정보 분석과 화자의 음성 실시간 클로닝을 지원합니다. 소음이 많은 환경에서도 안정적인 성능을 발휘하고 전문 용어 사전 주입 기능을 갖춰 글로벌 기업의 실무 환경에 즉각적인 활용이 가능한 것이 핵심입니다.

음성 인식 및 번역 멀티모달 AI 알리바바 Qwen
MP
MarkTechPost 45일 전
IMP 7

구글 AI, 표현력과 제어력을 강화한 'Gemini 3.1 Flash TTS' 공개

구글이 음성 품질과 표현력 제어, 다국어 생성 기능을 집중적으로 개선한 프리뷰 텍스트 음성 변환(TTS) 모델인 Gemini 3.1 Flash TTS를 공개했습니다. 이번 릴리스는 자연어 오디오 태그, 70개 이상의 언어 기본 지원 및 다중 화자 대화를 특징으로 합니다. 이는 단순한 텍스트 변환을 넘어, 기존의 '블랙박스' 음성 생성 방식에서 탈피해 더욱 정교하게 제어 가능한 AI 음성 생성으로의 전환을 알리는 중요한 의미를 지닙니다.

인공지능 음성 합성 텍스트 음성 변환